变压器模型最近已成为自然语言处理中的基础模型之一,作为副产品,最近对扩展这些模型具有重大的兴趣和投资。但是,这些大型变压器语言模型的培训和推理成本令人难以置信,因此需要更多的研究来识别更有效的变体。在这项工作中,我们通过用统计语言建模中的文献启发的变压器体系结构提出了一个简单而有效的修改,该架构是通过通过文本序列的离散潜在表示构建的n-grams来增强模型的。我们评估了我们的模型,关于C4数据集的语言建模的N-Strammer以及Superglue数据集的文本分类,并发现它的表现优于诸如变压器和底漆等几个强基线。我们为JAX中的可重复性目的开放源模型。
translated by 谷歌翻译
音乐表达需要控制播放的笔记,以及如何执行它们。传统的音频合成器提供了详细的表达控制,但以现实主义的成本提供了详细的表达控制。黑匣子神经音频合成和连接采样器可以产生现实的音频,但有很少的控制机制。在这项工作中,我们介绍MIDI-DDSP乐器的分层模型,可以实现现实的神经音频合成和详细的用户控制。从可解释的可分辨率数字信号处理(DDSP)合成参数开始,我们推断出富有表现力性能的音符和高级属性(例如Timbre,Vibrato,Dynamics和Asticiculation)。这将创建3级层次结构(注释,性能,合成),提供个人选择在每个级别进行干预,或利用培训的前沿(表现给出备注,综合赋予绩效)进行创造性的帮助。通过定量实验和聆听测试,我们证明了该层次结构可以重建高保真音频,准确地预测音符序列的性能属性,独立地操纵给定性能的属性,以及作为完整的系统,从新颖的音符生成现实音频顺序。通过利用可解释的层次结构,具有多个粒度的粒度,MIDI-DDSP将门打开辅助工具的门,以赋予各种音乐体验的个人。
translated by 谷歌翻译